我们在[[001.什么是生成式 AI#文字接龙|之前]]了解到语言模型就是就是做文字接龙,将原本无穷无尽可能性答案的目标拆解成答案有限的一连串文字接龙
![[Pasted image 20250727210314.png]]
语言模型是通过[[001.什么是生成式 AI#机器学习 (Machine Learning)|机器学习/深度学习]]的方法学会文字接龙的:
![[Pasted image 20250729211053.png]]
[[#大语言模型训练的三个阶段|上述的三个阶段]]都是通过这个方法在学文字接龙,只是训练资料不同而已
![[Pasted image 20250729213501.png]]
![[Pasted image 20250729213950.png]]
上例中就是训练资料不够多样,导致过拟合
如果在训练资料中加入黄色的猫和黑色的狗,最佳化过程中机器就知道靠颜色的参数是不对的,迫使它找新的参数以符合训练资料
![[Pasted image 20250729215517.png]]
要正确的接出下一个 token,需要两方面的知识:
![[Pasted image 20250729225055.png]]
![[Pasted image 20250729224834.png]]
世界知识是非常复杂,而且有很多层次的,需要真正非常大量的资料才能让语言模型学会
比如上面的例子,对于小学生来说水的沸点是一百摄氏度是对的;但是对于中学生,知道水的沸点是和大气压相关的,在低压情况下水的沸点是有可能五十摄氏度,而非一百
![[Pasted image 20250729231659.png]]
网络上的资料可以说是无穷无尽的
![[Pasted image 20250729230115.png]]
这种人工介入很少,就可以训练的方式叫做自督导式学习 (Self-supervised Learning)
![[Pasted image 20250729230927.png]]
《泰晤士报》起诉 OpenAI 和 Microsoft 人工智能使用受版权保护的作品
| 年份 | 系列 | 参数量 | 训练资料量 |
|---|---|---|---|
| 2018 | GPT-1 | 117M | 7000 本书,大约 1GB |
| 2019 | GPT-2 | 1542M | 40GB |
| 2020 | GPT-3 | 175B | 580GB |
GPT-2 问答上表现如何?
![[Pasted image 20250729233214.png]]
GPT-3 能好多少?
![[Pasted image 20250729233406.png]]
结论就是即使参数量和训练资料量多了几百几千倍,但效果并没有好多少
所以当年很多人觉得 OpenAI 走错方向了,文字接龙怎么可能接出人工智能来
![[Pasted image 20250729234428.png]]
![[Pasted image 20250729234701.png]]
更大的模型也无法好好回答你的问题:你问它一个问题,它会接出更多问题
因为也没人教它要回答问题……
它的所有知识都是通过网络学的
![[Pasted image 20250729235141.png]]
这个阶段语言模型在网络上学了很多东西,却不知道使用方法